Passer au-delà de la formulation générale

Optimisation par fine-tuning et architectures spécialisées

1. Au-delà de la formulation

Bien que la formulation « Few-Shot » soit un excellent point de départ, l'agrandissement des solutions d'IA exige souvent un passage à Fine-tuning supervisé. Ce processus intègre directement des connaissances ou comportements spécifiques dans les poids du modèle.

Le choix : Vous ne devez fine-tuner uniquement lorsque les améliorations de qualité des réponses et la réduction des coûts en jetons dépassent largement l'effort informatique et de préparation des données requis.

$Coût = Jetons \times Taux$

2. La révolution des petits modèles linguistiques (SLM)

Petits modèles linguistiques (SLM) sont des versions réduites et très efficaces de leurs homologues massifs (par exemple, Phi-3.5, Mistral Small). Ils sont entraînés sur des données hautement sélectionnées et de haute qualité.

Compromis : Les SLM offrent une latence significativement plus faible et permettent le déploiement sur périphériques (exécution localement sur les appareils), mais ils sacrifient l'intelligence large et généralisée « humaine » présente dans les grands LLM.

3. Architectures spécialisées

Mélange d'experts (MoE): Une technique qui permet d'augmenter la taille totale du modèle tout en préservant l'efficacité computationnelle pendant l'inférence. Seul un sous-ensemble d'« experts » est activé pour chaque jeton donné (par exemple, Phi-3.5-MoE).
Multimodalité: Des architectures conçues pour traiter le texte, les images et parfois l'audio simultanément, élargissant ainsi les cas d'utilisation au-delà de la génération de texte (par exemple, Llama 3.2).

La hiérarchie de l'efficacité

Essayez toujours d'abord L'ingénierie de formulations d'abord. Si cela échoue, mettez en œuvre RAG (Génération augmentée par récupération). Utilisez le fine-tuning uniquement comme étape avancée finale d'optimisation.

TERMINALbash — 80x24

> Ready. Click "Run" to execute.

Question 1

When does the course recommend proceeding with fine-tuning over prompt engineering?

When the benefits in quality and cost (reduced token usage) outweigh compute effort.

Whenever you need the model to sound more human-like.

As the very first step before trying RAG or prompt engineering.

Only when deploying to an edge device.

Question 2

Which model architecture allows scaling model size while maintaining computational efficiency?

Supervised Fine-Tuning (SFT)

Retrieval-Augmented Generation (RAG)

Mixture of Experts (MoE)

Multimodality

Challenge: Edge Deployment Strategy

Apply your knowledge to a real-world scenario.

You need to deploy a multilingual translation tool that runs locally on a laptop with limited GPU resources.

Task 1

Select the appropriate model family and tokenizer for this multilingual, low-resource task.

Solution:
Mistral NeMo with the Tekken Tokenizer. It is optimized for multilingual text and fits within SLM constraints.

Task 2

Define the deployment framework for high-performance local inference.

Solution:
Use ONNX Runtime or Ollama for local execution to maximize hardware acceleration on the laptop.